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青 报 与 档案 管理 教育 机 构 为 例 


摘要 : [目的 /意义 ] 定量 描述 图 书 情报 与 档案 管理 学 科 的 研究 图 景 ， 为 各 机 构 之 间 合 作 关 系 
的 建立 提供 决策 支持 ， 从 而 推动 跨 机 构 合 作 的 发 展 。[ 方法 /过 程 ] 采用 LDA 主题 模型 和 网 络 
分 析 方 法 ， 以 国内 67 所 图 书 情报 与 档案 管理 教育 机 构 为 例 ， 通 过 对 教师 自述 研究 兴趣 文本 进行 
主题 聚 类 构建 机 构 相 似 性 网 络 ， 并 进行 社 群 划 分 与 潜在 合作 关系 挖 据 。[ 结果 /结论 ] 当前 国内 
图 书 情报 与 档案 管理 教师 的 研究 兴趣 主要 涉及 信息 资源 管理 、 信 息 计 量 与 竞争 情报 、 信 息 服务 
与 用 户 等 11 个 主题 ， 样 本 机 构 可 划分 为 7 个 社 群 ， 包 含 457 对 潜在 合作 关系 。 未 来 ， 图 书 情报 
与 档案 管理 学 科 除了 向 5 种 路 径 进 行 学 科 融 合 之 外 ， 还 可 在 不 同 领域 充分 展开 科研 与 教育 实践 


的 跨 机 构 合 作 。 


关键 词 : 相似 性 网 络 自述 研究 兴趣 ”科研 合作 ”教育 机 构 LDA 模型 
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@5 言 

2019 年 4 月 ， 为 提高 高 校服 务 经 济 社会 
发 展 能 力 ， 教 育 部 、 中 央 政 法 委 、 科 技 部 等 13 
个 部 门 联合 启动 “六 章 越 一 拔尖 ”计划 2.0， 
该 计划 包括 全 面 推进 新 文科 建设 中。 较 传统 文 
科 而 言 ， 新 文科 更 加 强调 学 科 发 展 中 的 继承 与 
创新 、 多 学 科 的 交叉 与 融合 以 及 多 机 构 的 协同 
与 共享 站。 在 大 数据 、 云 计算 、 人 工 智 能 等 新 


技术 高 速 发 展 和 信息 社会 需求 不 断 变化 的 时 代 
背景 下 ， 图 书 情报 与 档案 管理 学 科 展 现 了 日 益 
显著 的 路 学 科 特 性 ， 而 学 科 的 多 向 发 展 也 对 路 
系统 组 织 之 间 的 科研 合作 提出 了 更 多 的 要 求 。 
跨 机 构 合作 能 够 在 信息 共享 的 基础 上 充分 利用 
科研 资源 ,形成 解决 复杂 研究 问题 的 有 效 方法 六 。 
如 何 挖掘 机 构 之 间 的 潜在 合作 关系 、 提 升 跨 机 
构 合作 效率 , 也 成 为 了 科学 研究 中 的 重要 议题 。 
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< 局 一 

一 般 认为 , 研究 内 容 更 为 相近 的 实体 之 
间 具 有 更 高 的 潜在 合作 程度 。 对 此 ， 相 关 研 
究 “ 主要 从 学 者 的 科研 成 果 中 直接 获取 或 间 
接 识 别 研究 主题 ， 并 采用 网 络 分 析 等 方法 ， 从 
不 同 角 度 对 科研 实体 进行 相似 度 测 算 或 社 群 分 
析 。 然 而 ， 此 条 研究 路 径 很 少 利用 公开 于 互联 
网 中 的 官方 自述 资料 。 当 前 以 自述 资料 为 数据 
来 源 的 研究 5 主要 是 对 主题 分 布 情况 的 内 容 
分 析 ， 而 基于 主题 模型 的 方法 存在 一 定 程度 的 
缺 位 。 鉴 于 此 ， 笔 者 拟 以 国内 网 书 情 报 与 档案 
管理 教育 机 构 为 例 ， 基 于 学 者 的 自述 研究 兴趣 
文本 ,利用 隐 含 犹 利克 雷 分 布 ( Latent Dirichlet 
Allocation，LDA ) 主题 模型 和 网 络 分 析 方 法 ， 
试图 回答 如 下 两 个 问题 : 

(1) 当前 国内 图 书 情报 与 档案 管理 专业 教 
师 的 研究 兴趣 集中 表现 为 哪些 主题 ? 

(2 ) 国内 的 哪些 图 书 情报 与 档案 管理 教育 
机 构 之 间 存 在 潜在 的 合作 基础 ? 

本 文 的 研究 结果 有 助 于 理解 国内 图 书 情报 
与 档案 管理 专业 教师 研究 兴趣 的 分 布 情况 ， 协 
助 各 机 构 在 做 出 战略 定位 和 规划 的 基础 上 寻求 
同 自身 教学 科研 实践 内 容 相似 的 对 应 机 构 ， 为 
其 间 合作 关系 的 建立 提供 决策 支持 。 
@ 相 关 研究 
2.1 学 者 研究 兴趣 主题 挖掘 

学 者 的 研究 兴趣 代表 了 学 者 在 一 定时 间 段 
内 感 兴 趣 的 研究 内 容 ， 可 通过 学 术 成 果 (包括 
论文 、 项 目 、 专 利 等 ) 中 、 科 研 社交 网 站 中、 
个 人 主页 中 等 途径 获取 相关 数据 。 由 于 学 者 与 
研究 兴趣 之 间 往 往 是 多 对 多 的 关系 ， 即 一 名 学 
者 会 对 多 个 研究 主题 感 兴趣 ， 且 不 同 的 学 者 会 
同时 对 某 项 研究 主题 感 兴趣 ， 因 此 许多 研究 聚 
焦 于 学 者 研究 兴趣 的 主题 识别 与 表征 工作 。 当 
前 研究 主要 采用 主题 模型 和 知识 网 络 方法 实现 
上 述 目标 ， 例 如 刘 晓 豫 等 利用 加 权 K-means 
聚 类 算法 对 多 专长 专家 研究 兴趣 的 识别 方法 的 
改进 ， 熊 回 香 等 1 利用 LDA 主题 模型 对 学 者 
主题 档案 的 建构 ， 刘 萍 等 5 利用 关键 词 共 现 网 
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络 对 特定 机 构 学 者 的 社区 划分 等 。 值 得 注意 的 
是 ， 当 前 相关 研究 主要 将 科研 成 果 的 题 录 信 息 
作为 底层 数据 ， 而 很 少 针对 学 者 自述 资料 进行 
分 析 。 一 般 而 言 ， 学 者 自述 研究 兴趣 在 表达 效 
练 的 同时 蕴含 着 丰富 语义 内 容 ， 且 在 时 效 性 得 
到 保证 的 前 提 下 ， 能 够 有 效 减 小 科研 成 果 发 表 
周期 较 长 、 与 学 者 实际 研究 兴趣 关联 程度 较 低 
所 带 来 的 影响 。 因 此 ， 有 必要 对 学 者 的 自述 资 
料 给 予 一 定 的 重视 。 
2.2 科研 实体 潜在 合作 关系 挖掘 

为 了 推动 潜在 科研 合作 以 提高 科研 效率 ， 
研究 者 对 科研 实体 之 间 的 相似 性 进行 了 探讨 。 
X. Kong 等 09 基于 LDA 主题 模型 所 揭示 的 学 
者 动态 研究 兴趣 矩阵， 通过 计算 学 者 个 人 之 间 
的 余弦 相似 度 构建 了 合作 者 推荐 模型 ; 安 璐 
等 中 基于 “机 构 一 文献 类 别 ” 和 矩阵 ， 利 用 自 
组 织 喘 射 方法 测算 了 中 美 图 书 情报 科研 机 构 研 
究 领 域 的 相似 性 ; 林原 等 中 基于 “高 校 一 合 
作 ” 和 “高 校 一 主题 ”和 矩阵， 分 别 借助 改进 
后 的 Katz 和 余弦 相似 性 指标 ， 对 高 校 之 间 的 
潜在 合作 关系 进行 了 分 析 ; E. Yan 等 "” 基于 
SimRank 模型 ， 对 学 者 、 机 构 和 国家 3 个 层次 
的 合作 网 络 进行 了 链 路 预测 。 总 体 而 言 ， 在 机 
构 相 似 性 测度 层面 ， 相 关 研 究 主要 利用 机 构 主 
题 模型 和 已 有 合作 网 络 实现 测算 ， 其 中 余弦 相 
似 度 在 关于 前 者 的 研究 中 得 到 了 广泛 应 用 。 笔 
者 以 国内 图 书 情 报 与 档案 管理 教育 机 构 为 例 ， 
借助 LDA 主题 模型 对 专职 教师 的 自述 研究 兴 
趣 进行 主题 挖 气 ， 从 而 依次 构建 机 构 的 主题 向 
量 模型 和 余弦 相似 性 网 络 ， 探 测 并 分 析 其 间 的 
潜在 合作 关系 。 
全 数据 与 方法 
3.1 研究 设计 

笔者 主要 采用 网 络 调查 、LDA 主题 聚 类 和 
网 络 分 析 方法 ,在 语言 和 Gephi 软件 环境 中 
完成 以 下 研究 路 径 ( 见 图 1 ) : 四 数据 获取 与 预 
处 理 。 通 过 样本 机 构 的 官方 网 站 采集 教师 的 个 
人 资料 , 经 文本 数据 清洗 和 分 词 操作 后 , 构建 “ 教 
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师 一 词 项 ”DTM ( Document Term Matrix ) 矩阵 。 
@ 教 师 自述 研究 兴趣 主题 发 现 。 确 定 LDA 主题 
模型 的 各 项 基本 参数 ， 根 据 “ 主 题 一 词 项 ”分 
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性 网 络 分 析 。 基 于 机 构 的 主题 向 量 模型 计算 机 
构 之 间 的 相似 度 , 从 而 构建 机 构 的 相似 性 网 络 ， 
对 机 构 进 行 社 群 划 分 ,识别 具有 潜在 合作 关系 
的 机 构 组 。 


~ 
~ ~ 


1 4 l | 
| | | 十 必 到 | | | 
1 | | 
| Eee | | | 
| 自 壕 资料 汪 集 | | | 测 和 
| ' 四 | LDA 模 型 训练 。 “| 加 ' | 
SEC | | | ! 机 构 相 似 性 网 络 。 “| 
文本 分 词 | 构建 ' 
| | | ”主题 结果 标识 | | 

I ' 机 构 洪 在 合作 关 。 | 
DTM 和 矩阵 构建 | | | 系 识别 
四 / \ 4 / 


1 本 文 研究 路 径 


3.2 数据 获取 与 预 处 理 

经 过 对 国内 图 书 情报 与 档案 管理 教育 机 构 
官方 网 站 建设 现状 的 调查 ， 笔 者 最 终 选 取 了 67 
所 机 构 作为 研究 的 数据 来 源 (为 行文 方便 ， 下 
文 仅 以 机 构 所 属 高 校 或 科研 单位 名 称 表述 机 构 
全 称 ) 。 在 此 基础 上 ， 以 官方 网 站 为 人口 采集 
教师 的 个 人 资料 ， 涉 及 姓名 、 所 属 机 构 、 自 述 
研究 兴趣 等 方面 。 数 据 采 集 时 间 为 2020 年 11 
月 16 日 至 11 月 29 日， 经 清洗 后 共 获 得 1 289 
名 教师 的 个 人 信息 ， 提 及 研究 兴趣 3 599 次 。 

分 词 处 理 与 矩阵 构建 操作 主要 借助 R 语言 
中 的 Rwordseg 包 和 tm 包 完 成 。 首 先 ， 因 样本 
中 存在 中 英文 多 语种 来 源 ， 笔 者 对 英文 描述 进 
行 了 英 译 中 处 理 ; 其 次 ， 为 了 删除 无 意义 的 词 
语 ， 采 用 哈尔滨 工业 大 学 停 用 词 表 和 四 川 大 学 
机 器 智能 实验 室 停 用 词 库 构 建 分 词 停 用 词 表 ; 
最 后 ， 抽 取 20% 的 样本 进行 预 分 词 实验 ， 结 
合 实 际 情况 补充 了 自 定 义 词典 ， 其 主要 涉及 学 
科 名 称 等 专 有 名 词 。 经 过 上 述 操作 后 ， 得 到 了 
1289 x 14179 的 “教师 一 词 项 ”DTM 和 矩阵 。 
3.3 关键 方法 
3.3.1 LDA 主题 模型 

为 分 析 国 内 图 书 情报 与 档案 管理 专业 教师 
的 研究 兴趣 主题 分 布 ， 需 要 确定 LDA 主题 模型 


的 基本 参数 。LDA 主题 模型 的 构建 主要 借助 R 
语言 中 的 1da 包 、Rmpfr 包 、topicmodels 包 和 
LDAvis 包 实 现 。 笔 者 主要 采用 Gibbs 采样 算法 
求解 全 局 主题 和 词 项 的 分 布 ， 需 设 定 c、B 和 最 
优 主题 数 K3 个 超 参 数 。 其 中 ，a、B 一 般 设 定 
为 默认 值 ， 可 根据 实际 效果 进行 调节 。 可 根据 
困惑 度 或 似 然 估 计数 值 随 主 题 数 变化 的 情况 确 
定 ， 当 似 然 佑 计数 值 达 到 最 大 时 的 主题 数 即 为 
最 优 解 ,在 此 基础 上 , 从 模型 训练 所 得 的 “主题 一 
词 项 ”概率 分 布 矩 阵 中 抽取 各 主题 下 具有 较 高 
显著 度 后 的 若干 词 项 ， 作 为 主题 标识 的 依据 。 
此 外 ， 基 于 “教师 一 主题 ”概率 分 布 矩 阵 计算 
所 有 教师 的 研究 兴趣 涉及 某 一 主题 的 概率 和 占 
总 体 的 比重 ， 可 以 得 到 该 主题 的 强度 ， 作 为 主 
题 关 注 度 的 计量 指标 。 
3.3.2 相似 度 计 算 与 分 析 

笔者 基于 机 构 的 主题 向 量 模型 ， 选 取 余 弦 
相似 度 作为 机 构 间 相似 性 测度 的 指标 。 首 先 ， 
根据 LDA 主题 模型 训练 所 得 的 “教师 一 主题 ” 
概率 分 布 矩 阵 ， 可 得 到 各 教师 的 主题 向 量 模型 
V;， 计 算 公式 如 公式 (1 ) 所 示 : 
pV, =(Pi, Py Pi),i=1,2,.,1289, j=1,2,…,K 

公式 (1) 
其 中 ， 忆 为 教师 忆 的 研究 兴趣 文本 隶属 于 
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主题 7 的 概率 , K 为 最 优 主题 数 。 分 别 计算 所 
属 机 构 为 工 的 所 有 教师 Ff 的 主题 概率 分 布 和 ， 
从 而 构建 各 机 构 的 主题 向 量 模型 ,计算 公式 
如 公式 (2 ) 所 示 : 
VD =D Ve x=1,2,,67,1=1,2,…,n 公式 (2) 

其 中 , nn 为 机 构 工 的 教师 总 数 。 因 此 ， 机 
构 五 和 五 之 间 的 余弦 相似 度 计算 公式 可 以 表示 
为 : 


V 
E :b=12,,067, 
矿 


Vx 
Wx 
0< Sim(1,,1,)<!1 公式 (3 ) 
显然 ,Si 六 ) = Sim(7,,1,), 且 当 a=b 时 ， 
Sim(1,, 1)=1。 一 方面 ， 可 据 此 构建 机 构 之 间 的 
相似 性 矩阵 。 由 于 基于 此 德 阵 生成 的 网 络 为 连 
通 图 ， 为 便于 后 续 分 析 ， 需 要 根据 一 定 策略 设 
定 合适 的 阔 值 4 进行 剪 枝 操作 ， 剔 除权 重 较 低 
的 矩阵 元 素 。 笔 者 参照 帕 累 托 法 则 ， 仅 保留 权 
重 较 高 的 20% 的 元 素 ， 借 助 Gephi 软件 构建 机 
构 之 间 的 相似 性 网 络 ， 并 使 用 内 置 的 Louvain 算 


Sim(1,,1,)= 


-8800 
-8900 


-9000 
-9100 


似 然 估 计 值 


-9200 
-9300 


-9400 
2 3 8 11 
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法 中 作为 社 群 划分 方法 。 此 网 络 的 节点 为 各 机 
构 ， 连 接 节 点 五 和 五 的 边 的 权重 为 Sim(1,, J)， 
代表 了 各 机 构 之 间 的 相似 程度 。 另 一 方面 ， 可 
分 别 得 到 某 机 构 和 与 其 最 为 相似 的 机 构 主 题 强 
度 超过 10% 的 主题 集合 ， 通 过 计算 交集 获取 两 
者 的 潜在 合作 人 研究 领域 。 
人 研究 结果 
4.1 教师 自述 研究 兴趣 主题 发 现 

首先 ， 参照 LDA 主题 模型 基本 参数 的 确定 
方法 ， 确 定 聚 类 的 最 优 主题 数 。 如 图 2 所 示 ， 
当主 题 数 为 11 时 达到 最 大 似 然 估计 ， 说 明 此 时 
模型 性 能 较 好 ， 能 够 有 效 地 实现 主题 的 判别 ， 
因此 设 定 最 优 主 题 数 K=11。 在 运行 主题 发 现 模 
型 得 到 “主题 一 词 项 ”概率 分 布 结果 后 ， 依 据 
每 个 主题 下 所 包含 的 显著 度 最 高 的 6 个 词 项 对 
主题 进行 标识 ( 见 表 1 ) 。 目 前 ， 国 内 图 书 情报 
与 档案 管理 专业 教师 的 研究 兴趣 可 主要 概括 为 
电子 商务 与 战略 管理 、 信 息 服务 与 用 户 、 图 书 
馆 学 与 图 书 文 化 史 等 11 个 主要 主题 。 


14 17 20 23 26 29 
主题 个 数 


2 似 然 估 计数 值 计算 结果 


如 前 所 述 , 可 基于 LDA 主题 发 现 所 得 的 “ 教 
师 一 主题 ”概率 分 布 和 矩阵 ， 计 算 某 一 主题 占 总 体 
的 比重 ， 得 到 该 主题 的 强度 。 在 一 定 程度 上 ， 主 
题 强度 能 够 体现 当前 图 书 情报 与 档案 管理 专业 教 
师 对 不 同 研究 兴趣 的 关注 情况 ， 见 图 3。 信息 资 
源 管理 (Ts) 、 信 息 计 量 与 竞争 情报 〈T; ) 以 及 
信息 服务 与 用 户 〈T: ) 是 样本 教师 群体 最 为 关注 
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的 3 个 主题 ， 其 主题 强度 均 超 过 10%。 这 说 明 
在 当前 时 间 窗 口 下 ， 国 内 图 书 情报 与 档案 管理 专 
业 教 师 对 学 科 的 内 核 形成 了 初步 共识 ， 并 集中 体 
现 了 学 科 整 体面 向 国家 战略 、 服 务 社会 发 展 、 满 
足 用 户 需求 的 使 命 感 。 国 内 图 书 情报 与 档案 管理 
专业 教师 的 研究 兴趣 也 体现 了 较 高 的 技术 介入 程 
度 与 较 广 的 学 科 应 用 场景 ， 电 子 商务 与 战略 管理 
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(Ti ) 、 数 据 挖 气 与 大 数据 技术 (T,, ) 和 政务 信 
息 管理 (T, ) 呈现 了 相对 较 高 的 主题 强度 。 此 外 ， 
出 版 与 文化 产业 (Ts ) 、 信 息 跨 学 科 应 用 〈T ) 


表 1 教师 自述 研究 兴 
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以 及 图 书馆 学 与 图 书 文化 史 〈(T: ) 是 关注 度 相 对 
较 低 的 3 个 主题 ， 这 主要 受 样本 机 构 相 应 学 科 的 
建设 规模 与 师资 数量 所 影响 。 


趣 的 “主题 一 词 项 ”分 布 


主题 序号 主题 标识 高 显著 度 词 项 

到 电子 商务 与 战略 管理 电子 管理 商务 系统 企业 战略 
D 言 息 服务 与 用 户 六 息 分 析 网 络 用 户 服务 行为 
T 图 书馆 学 与 图 书 文化 史 历史 图 书馆 文献 文化 阅读 古籍 
7 言 息 跨 学 科 应 用 医学 资源 信息 学 生物 健康 组 织 
六 出 版 与 文化 产业 出 版 文化 公共 产业 阅读 营销 
1 管理 科学 与 工程 管理 系统 供应 链 物流 经 济 工程 
各 信息 计量 与 竞争 情报 情报 信息 科技 评价 竞争 计量 
7, 计 息 资源 管理 计 息 管理 资源 组织 检索 建设 
并 政务 信息 管理 管理 档案 电子 政务 政府 治理 
i 档案 管理 理论 与 方法 档案 档案 学 理论 管理 利用 文件 
号 数据 挖掘 与 大 数据 技术 数据 挖掘 智能 网 络 大 数据 技术 

电子 商务 与 战略 管理 

言 息 服务 与 用 户 

图 书馆 学 与 图 书 文化 史 

六 息 跨 学 科 应 用 

a 出 版 与 文化 产业 

器 管理 科学 与 工程 

州 ”信息 计量 与 竞争 情报 

信息 资源 管理 

政务 信息 管理 

档案 管理 理论 与 方法 

数据 挖掘 与 大 数据 技术 


6 9 12 
主题 强度 (%) 


3 教师 自述 研究 兴趣 的 主题 及 其 强度 


4.2 机 构 相 似 性 网 络 分 析 

在 获取 机 构 的 主题 向 量 模型 后 ， 可 以 计算 出 
机 构 之 间 的 余弦 相似 度 。 根 据 帕 累 托 法 则 对 机 构 
之 间 的 边 进行 剪 枝 操作 ， 此 时 权重 阔 值 =0.72， 
即 当 Sim(Z, 40.72 时 ， 可 以 认为 机 构 1 和 了 之 
间 具 有 高 度 的 相似 性 。 在 此 基础 上 ， 可 以 得 到 国 


内 图 书 情报 与 档案 管理 机 构 的 相似 性 网 络 ( 见 图 
4 ) ， 共 包含 67 个 节点 、457 条 边 。 其 中 ， 节 点 
大 小 代表 机 构 师资 数量 的 多 少 ， 节 点 颜色 代表 不 
同 的 社 群 类 别 ， 分 别 以 字母 A-G 表示 。 

社 群 A 主要 由 以 档案 学 或 信息 资源 管理 专 
业 为 主体 的 机 构 组 成 ， 包 括 中 国人 民 大 学 、 上 
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海 大 学 、 湘 潭 大 学 、 郑 州 大 学 等 23 所 机 构 。 档 
案 管 理 理论 与 方法 、 政 务 信 息 管理 和 信息 资源 
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管理 是 社 群 A 较为 关注 的 3 个 主题 ， 三 者 的 强 
度 和 达到 了 56.6%。 


东南 水 学 
盐城 师 第 学 院 西区 六 大 学 i 厅 兴 学 
苏州 大 学 北京 联 兴 大 学 上 海 蜂 大 学 河南 科技 大 学 
责 州 师范 字 院 湘潭 大 学 河北 Ss 
这 5 光学 一 上 海 社会 六 字 院 二 
OR 云南 大 学 湖北 头 学 Ee 
A 中 国人 民 大 学 辽宁 类 大 学 
山西 财经 大 学 
安徽 大 学 
扬 类 状 学 上 海关 学 数 大 学 南江 学 华东 师范 大 学 
四 哑 学 郑州 航空 玉 业 管理 学 院 A 
福建 师范 大 学 
吉林 状 学 一 人 > TU 人 | P24 西安 电 知 法 大 学 
二季 学 武汉 大 子 南京 理 字 大 学 
中 国医 衬 大 学 > A | Ze 京 头 学 
山西 医 衬 大 学 长 春 类 第 大 字 @ i 南 》 RZA 于 
中 页 头 学 5 
巨 © 陕西 理 宁 大 学 华南 烦 篆 大 学 7 es 
北京 师范 大 学 Sp 
复 虹 学 
中 国 中 医科 学 院 局 东北 烦 范 大 学 天 津 师范 大 学 
E 山东 更 主 大 学 
wer 信息 研 究 所 
中 国 
I 


北京 理 守 大 学 


4 国内 图 书 情报 与 档案 管理 教育 机 构 相 似 性 网 络 


社 群 B 内 机 构 的 学 科 背 景 较为 综合 全 面 ， 
与 社 群 A 构成 了 网 络 的 主体 部 分 ， 包 括 武汉 大 
学 .南京 大 学 .北京 大 学 .中 山大 学 等 19 所 机 构 。 
社 群 B 内 部 的 主题 概率 分 布 相对 均衡 ， 信 息 资 
源 管 理 、 信 息 服 务 与 用 户 、 信 息 计量 与 竞争 情 
报 以 及 数据 迭 掘 与 大 数据 技术 是 其 较为 关注 的 4 
个 主题 ， 强 度 均 超过 了 10%。 

社 群 C 主要 由 具有 经 济 管理 背景 的 机 构 组 
成 ， 多 设 于 经 济 或 管理 学 院 ( 部) 下 ,包括 河 
海 大 学 、 山 东 大 学 、 山 西 大 学 、 东 南大 学 等 10 
所 机 构 。 强 度 较 高 的 两 个 主题 为 电子 商务 与 战 
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略 管 理 以 及 管理 科学 与 工程 ， 均 在 20% 以 上 。 
社 群 D 包括 中 国 科学 技术 信息 人 研究 所 、 中 
国 科学 院 大 学 、 江 苏 大 学 、 山 东 理 工大 学 等 9 
所 机 构 ， 主 要 依托 机 构图 书馆 或 文献 情报 中 心 
进行 学 科 建 设 。 信 息 计量 与 竞争 情报 在 该 社 群 
内 的 强度 最 高 ， 达 到 了 43.4%。 具 备 图 书 资料 专 
业 职 称 的 教 职 工 约 占 社 群 内 教师 总 体 的 64.3%， 
多 在 科研 评价 、 科 技 战略 和 专利 情报 分 析 等 方 
向 展开 研究 。 

社 群 E、F 和 G 的 机 构 数 相 对 较 少 ， 且 与 
其 他 社 群 之 间 几 乎 不 具有 显著 的 相似 性 。 社 群 
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E 包 括 中 国医 科大 学 、 山 西医 科大 学 和 中 南大 
学 3 所 机 构 ， 均 具有 医学 或 生物 学 背景 ,信息 
跨 学 科 应 用 的 主题 强度 高 达 65.4%。 社 群 F 包 
括 复旦 大 学 、 中 国 中 医科 学 院 2 所 机 构 ， 尽 管 
同 社 群 D 一样 依托 图 书 资料 中 心 建设 , 但 其 对 
历史 文献 学 和 古籍 保护 方向 给 予 了 更 多 的 强调 ， 
图 书馆 学 与 图 书 文 化 史 的 主题 强度 为 38.2%， 显 
车 高 于 社 群 D 的 1.1%。 社 群 G 仅 包 括 山东 科技 
大 学 1 所 机 构 ， 为 孤立 节点 ， 同 其 他 66 所 机 构 
均 不 连通 。 这 主要 缘 于 其 深厚 的 计算 机 技术 背 
景 ， 其 数据 挖掘 与 大 数据 技术 的 主题 强度 高 达 
68.0%， 而 其 他 机 构 这 一 主题 的 最 高 强度 也 不 足 
30%。 

在 前 文 识别 457 对 潜在 合作 关系 的 基础 上 ， 
寻找 与 某 一 机 构 最 为 相似 的 其 他 机 构 ， 并 识别 
两 者 合作 的 潜在 研究 领域 ， 对 推动 跨 机 构 合 作 
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实践 有 着 重要 的 意义 。 笔 者 将 某 机 构 和 与 其 最 
为 相似 的 机 构 主 题 强度 超过 10% 的 主题 集合 定 
义 为 潜在 研究 领域 , 表 2 展示 了 部 分 计算 结果 。 
在 相似 度数 值 方面 ， 东 南大 学 与 河 海 大 学 之 间 
的 相似 程度 最 高 ， 达 到 了 0.98， 两 者 对 数据 挖 
掘 与 大 数据 技术 以 及 管理 科学 与 工程 方向 给 予 
了 高 度 关注 ; 中 国 中 医科 学 院 的 最 相似 机 构 为 
复旦 大 学 ， 相 似 度 为 0.76， 两 者 的 潜在 合作 领 
域 分 别 为 信息 计量 与 竞争 情报 以 及 图 书馆 学 与 
图 书 文化 史 。 此 外 ， 表 2 展示 了 学 科 建 设 水 平 
位 列 前 位 的 机 构 相 关 情 况 ， 如 南京 大 学 可 在 信 
息 服 务 与 用 户 、 数 据 挖掘 与 大 数据 技术 以 及 出 
版 与 文化 产业 等 领域 与 武汉 大 学 开展 合作 ， 而 
中 国人 民 大 学 可 在 信息 资源 管理 、 政 务 信息 管 
理 以 及 档案 管理 理论 与 方法 等 领域 与 北京 联合 
大 学 开展 合作 等 。 


表 2 同 各 机 构 相 似 度 最 高 的 其 他 机 构 与 潜在 合作 领域 《部 分 结果 ) 


相似 度 排序 “机构 名 称 最 相似 机 构 名 称 ”相似 度 潜在 合作 领域 
1 东南 大 学 河 海 大 学 0.98 ”数据 挖 所 与 大 数据 技术 、 管 理科 学 与 工程 
ee 、 党 息 资源 管理 、 信 息 服务 与 用 户 、 电 子 商务 与 
0 武汉 大 学 i 0.93 战略 管理 、 数 据 挖掘 与 大 数据 技术 
ee 四 膏 息 服务 与 用 户 、 数 据 挖掘 与 大 数据 技术 、 出 
36 南京 大 学 武汉 大 学 0.91 版 与 文化 产业 
49 中 国人 民 大 学 。 北京 联合 大 学 0.89 ee 
本 Te ee 信息 资源 管理 、 信 息 服务 与 用 户 、 信 息 路 学 科 
四 有 信息 服务 与 用 户 、 数 据 挖 掘 与 大 数据 技术 、 管 
60 华中 师范 大 学 。 西安 电子 科技 大 学 。 0.84 ”理科 学 与 工程 
66 中 国 中 医科 学 院 复旦 大 学 0.76 ”信息 计量 与 竞争 情报 、 图 书馆 学 与 图 书 文化 史 
Hi 论 一 方面 ， 图 书 情报 与 档案 管理 内 部 应 紧密 


5.1 图 书 情报 与 档案 管理 的 跨 学 科 融 合 路 径 

作为 一 门 应 用 型 学 科 ， 图 书 情报 与 档案 管 
理 的 学 科 发 展 具 有 明显 的 路 学 科 特 征 ， 一 般 认 
为 学 者 的 跨 学 科研 究 活 动 是 其 跨 学 科 的 重要 表 
现 和 驱动 。 基 于 前 文 对 我 国 专职 教师 研究 兴趣 
的 主题 发 现 和 教育 机 构 的 社 群 划 分 ， 笔者 总 结 
了 图 书 情报 与 档案 管理 的 跨 学 科 融 合 路 径 ， 见 
图 5。 


围绕 信息 资源 管理 这 一 学 科 内 核发 展 。 每 个 学 
科 都 有 属于 自 时 的 话语 系统 和 规则 ， 在 与 其 他 
学 科 融 合 的 过 程 中 ， 仍 需 明 确 并 坚守 自身 的 核 
心 内 容 。 图 书 情报 与 档案 管理 的 核心 知识 即 立 
足 于 信息 资源 全 生命 周期 管理 的 教育 与 研究 ， 
涉及 数据 、 信 息 和 知识 的 记录 、 保 存 、 组 织 、 
检索 、 获 取 、 分 析 和 开发 利用 过 程 ， 具 有 显著 
的 服务 特征 中。 通过 前 文 的 主题 发 现 ， 信 息 资 
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ES 


公共 管理  “ 


源 管理 在 当前 国内 专业 教师 的 研究 兴趣 中 具有 
最 高 的 主题 强度 , 上 且 随 着 信息 社会 的 不 断 发 展 ， 
在 大 数据 、 人 工 智 能 等 新 兴 信 息 技术 的 支持 作 
用 下 ， 应 用 场景 不 断 得 到 拓展 与 深化 。 在 2021 
年 的 新 版 学 科 专 业 目 录 草 案 中 ，“ 图 书 情报 与 
档案 管理 ”一 级 学 科 拟 更 名 为 “信息 资源 管理 ”， 
进一步 引发 了 有 关 学 科 核 心 知识 的 讨论 。 而 这 
一 行动 充分 体现 了 我 国 图 书 情报 与 档案 管理 一 
级 学 科 的 价值 转向 。 此 外 , 信息 计量 与 竞争 情报 、 
信息 服务 与 用 户 、 电 子 商 务 与 战略 管理 以 及 数 
据 挖掘 与 大 数据 技术 等 将 “数据 一 信息 一 知识 一 
智慧 ” ( DIKW ) 体系 各 层次 之 间 联 系 起 来 的 主 
题 的 强度 亦 相 对 较 高 ， 充 分 反映 了 图 书 情报 与 
档案 管理 学 科 的 整体 联系 更 加 紧密 。 图 书馆 学 、 
情报 学 和 档案 学 各 二 级 学 科 的 科研 或 教育 实践 
者 应 树立 学 科 共 同体 意识 ， 在 专注 于 信息 资源 
管理 内 核 的 基础 上 , 强化 学 科 的 社会 服务 职能 ， 
推动 社会 的 创新 与 进步 。 

男 一 方面 ， 图 书 情报 与 档案 管理 可 通过 同 
其 他 学 科 的 交叉 和 融合 促进 学 科 深 度 发 展 ， 提 
升 自 身 的 学 科 地 位 与 竞争 力 。 随 着 当代 科学 的 
学 科 整 合 趋势 愈加 显著 ， 图 书 情 报 与 档案 管理 
由 于 本 就 具有 相对 较 强 的 跨 学 科 属 性 ， 因 而 当 
其 在 对 二 级 学 科 进 行 整 合 、 凝 聚 一 级 学 科 内 核 
的 基础 上 ， 也 在 与 同族 学 科 之 外 的 学 科 开展 交 
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< 一 > 计算 机 科学 与 技术 


“管理 科学 与 工程 


5 图 书 情 报 与 档案 管理 的 跨 学 科 融 合 路 径 


融 。 通 过 上 一 节 的 研究 主题 发 现 与 社 群 分 析 ， 
可 以 发 现 国内 图 书 情报 与 档案 管理 目前 至 少 与 5 
类 信息 资源 管理 学 科 群 之 外 的 学 科 实 现 了 不 同 
程度 的 融合 ， 具 体 而 言 : 与 历史 学 、 文 学 等 基 
础 人 文学 科 相 融合 ， 助 力图 书 文化 史 、 数 字 人 
文 等 领域 的 研究 ; 与 医学 、 生 物 学 等 基础 自然 
科学 融合 ， 用 图 书 情报 学 的 方法 梳理 文献 和 知 
识 ; 与 计算 机 科学 与 技术 融合 ， 借 助 新 兴 信 息 
技术 提升 图 书 情报 科研 工作 的 效率 ; 与 管理 科 
学 与 工程 融合 ， 为 社会 各 行业 或 领域 提供 管理 
决策 支持 ; 与 公共 管理 学 科 融 合 ， 推 动 政务 信 
息 管理 、 公 共 文 化 方向 的 发 展 。 未 来 ， 图 书 情 
报 与 档案 管理 仍 可 继续 深化 与 其 他 学 科 的 融合 
与 合作 ， 更 加 开放 地 加 强 学 科 建 设 ， 敢 于 在 蜂 
学 科研 究 中 发 声 、 竞 争 与 引领 。 
5.2 新 文科 建设 背景 下 的 路 机 构 合作 

机 构 之 间 的 协同 与 信息 共享 是 新 文科 建设 
所 强调 的 一 个 重要 方面 。 在 多 学 科 交 义 融 合 的 
基础 上 ， 各 机 构 能 够 通过 跨 机 构 的 科研 与 教育 
合作 有 力 推 动 自身 转型 , 构建 学 科 命 运 共同 体 。 
前 文 基于 教师 自述 研究 兴趣 文本 的 余弦 相似 性 
网 络 将 国内 图 书 情报 与 档案 管理 教育 机 构 划 分 
为 7 个 社 群 ， 并 探测 了 与 各 机 构 最 相似 的 潜在 
合作 机 构 和 研究 领域 。 结 果 显 示 ， 大 部 分 机 构 
的 潜在 合作 机 构 均 处 于 相同 社 群 中 ， 且 不 同 社 
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群 的 机 构 依托 各 种 类 型 的 教育 与 科研 资源 ， 形 
成 了 不 同 的 研究 侧重 点 以 及 鲜明 的 研究 特色 。 
例如 ， 具 有 经 济 管理 背景 的 机 构 在 电子 商务 与 
战略 管理 以 及 管理 科学 与 工程 两 个 主题 领域 占 
据 绝 对 优 执 ， 而 依托 于 机 构图 书馆 或 文献 情报 
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书 情报 与 档案 管理 学 科 而 言 ， 研 究 发 现 : GD 教 
师 的 研究 兴趣 主要 涉及 信息 资源 管理 、 信 息 计 
量 与 竞争 情报 、 信 息 服务 与 用 户 等 11 个 主题 ; 
包 样 本 院 系 主要 可 划分 为 7 个 社 群 ,包含 457 
对 潜在 合作 关系 。 据 此 ， 笔 者 强调 多 学 科 融 合 


中 心 开展 学 科 建 设 的 机 构 多 专注 于 信息 计量 与 
竞争 情报 主题 的 研究 。 随 着 信息 交流 障碍 的 日 
益 减 少 ， 国 内 图 书 情报 与 档案 管理 院 系 能 够 与 
相似 机 构 之 间 就 同一 主题 ， 在 教育 和 科研 等 诸 
多 场景 中 展开 交流 、 分 享 与 合作 。 

在 此 基础 上 ， 在 本 文 基于 人 研究 主题 分 布 的 
相似 程度 而 得 出 的 最 显著 潜在 机 构 合作 关系 中 ， 
“复旦 大 学 一 陕西 理工 大 学 ”“ 河 北大 学 一 武 
汉 大 学 ”“ 华 东 师 范 大 学 一 南京 大 学 ”“ 吉 首 
大 学 一 长 春 师范 大 学 ”以 及 “南开 大 学 一 中 山 
大 学 ”为 5 组 跨 社 群 组 合 。 这 在 一 定 程度 上 说 
明 经 识别 所 得 的 7 个 社 群 并 非 完 全 隔绝 ， 存 在 
相互 渗透 与 相互 借鉴 的 可 能 性 。 在 这 一 过 程 中 ， 
处 于 社 群 边缘 的 机 构 扮 演 了 重要 的 桥梁 角色 ， 
它们 往往 具备 着 复合 型 的 社 群 特征 ， 能 够 有 效 
地 促进 图 书 情报 与 档案 管理 学 科 内 部 的 交流 与 
合作 ， 如 河北 大 学 、 天 津 师范 大 学 、 山 东 大 学 、 
南开 大 学 和 四 川 大 学 等 。 未 来 ， 在 发 挥 具 备 较 
大 师资 体 量 的 机 构 引 领 学 科 发 展 作用 的 同时 ， 
也 需 注重 发 挥 典型 机 构 在 科研 与 教育 实践 合作 
过 程 中 的 作用 。 此 外 ， 由 于 各 社 群 间 的 机 构 数 
量 不 一 ， 甚 至 在 机 构 相 似 性 网 络 中 出 现 了 山东 
科技 大 学 这 一 依托 于 计算 机 科学 与 技术 学 科 的 
孤立 节点 ， 因 此 在 具体 合作 过 程 中 ， 仍 需 注 意 
研究 内 容 与 主题 的 分 工 ， 最 大 化 图 书 情报 与 档 
案 管理 学 科 内 部 的 凝聚 力 ， 共 同 促进 合作 效率 
的 提升 与 研究 成 果 的 转化 。 


@ 结 语 

笔者 基于 国内 图 书 情报 与 档案 管理 教育 机 
构 的 教师 自述 研究 兴趣 文本 ， 对 当前 国内 相关 
专业 教师 的 研究 兴趣 进行 主题 聚 类 ， 并 在 此 基 
础 上 构建 机 构 的 研究 兴趣 相似 性 网 络 ， 识 别 各 
机 构 的 潜在 合作 机 构 及 研究 领域 。 就 国内 的 图 


与 跨 机 构 合作 的 重要 性 : 中 图 书 情报 与 档案 管 
理 的 跨 学 科 融 合 路 径 应 在 坚守 信息 资源 管理 内 
核 的 前 提 下 ， 与 管理 科学 与 工程 、 公 共管 理 、 
计算 机 科学 与 技术 等 学 科 积极 融合 ; 充分 发 
挥 社 群 边缘 机 构 在 跨 机 构 合作 中 的 重要 作用 ， 
促进 机 构 之 间 多 方面 、 深 层次 的 合作 。 本 文 可 
以 协助 各 机 构 寻 求 同 自 身 相似 的 同行 机 构 ， 并 
能 够 通过 挖掘 其 间 的 潜在 合作 关系 ， 在 一 定 程 
度 上 推动 跨 机 构 合 作 的 发 展 。 

需要 注意 的 是 ， 本 文 的 研究 兴趣 文本 数据 
主要 来 自 机 构 官方 网 站 ， 可 能 存在 数据 老 旧 、 
更 新 不 及 时 的 情况 ， 影 响 分 析 结 果 。 今 后 ， 可 
综合 机 构 网 站 、 学 术 成 果 题 录 等 多 来 源 资料 ， 
优化 数据 质量 ， 进 行 综合 分 析 。 此 外 ， 洪 在 合 
作 关 系 与 实际 合作 现状 之 间 的 比较 、 全 球 范围 
内 机 构 潜在 合作 关系 的 探究 ， 也 是 值得 进一步 
研究 的 方向 。 
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Mining Potential Cooperative Relationships Between Institutions Based on Similarity 
Network of Self-Reported Research Interests: A Case Study of Library, Information 
and Archives Management Schools in China 


Hu Zhiwei Pei Lei 
School of Information Management, Nanjing University, Nanjing 210023 

Abstract: [Purpose/Significance] By quantitatively describing the research landscape of the discipline 
of library, information and archives management (LIAM), this paper can provide decision support for the 
establishment of cooperative relationships between institutions, thus promoting the development of inter- 
institutional cooperation. [Method/Process] By using LDA model and network analysis method, this paper 
took 67 LIAM schools in China as an example. By thematic clustering of faculty’s self-reported research 
interest texts, the similarity network of institutions was constructed, and community division and potential 
cooperative relationship mining were performed. [Result/Conclusion] It is found that the current research 
interests of LIAM faculties in China mainly involve 11 topics, such as information resource management, 
informetrics and competitive intelligence, and information services and users. The sample schools can 
be divided into 7 communities, containing 457 pairs of potential cooperative relationships. In the future, 
in addition to taking part in five approaches of disciplinary integration, LIAM can fully carry out inter- 
institutional cooperation in scientific research and educational practice in different fields. 

Keywords: similarity network self-reported research interests scientific cooperation educational 
institution LDA 
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